From Marbles to Daxes

An Introduction to HBMs and their Application to Category Learning”

Jan Luca Schnatz

Hierarchisches Beta-Binomiales Modell

Einführendes Beispiel

Wiederholtes Ziehen von schwarzen und weißen Murmeln aus verschiedenen Murmelbeuteln

Welche Farbe ist für die nächste Murmel im achten Murmelbeutel am wahrscheinlichsten?

Intuition

  • Eine einzelne schwarze Murmel liefert wenig Information über zukünftige Murmeln.
  • Durch Vorwissen über viele Murmelbeutel (meist schwarz oder meist weiß) wird die einzelne Beobachtung informativ.

\(\rightarrow\) Hohe Wahrscheinlichkeit, dass die nächsten Murmeln ebenfalls schwarz sind

Hierarchische Struktur

  • Informationen werden über Murmelbeutel hinweg auf höherer Ebene geteilt.
  • Beobachtungen aus früheren Murmelbeuteln formen starke Priors.
  • Diese Priors beeinflussen Vorhersagen über neue Murmelbeutel.

Zielsetzung

Entwicklung eines Bayesianisches-Modell, das menschliche Schlussfolgerung über Farbverteilungen zwischen Murmelbeuteln rekonstruiert kann (reverse-engineering).

Formalisierung des Problems

Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.

Formalisierung des Problems

Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.

Level 1 – Daten

\(d_i: \big\{y_i, n_i \big\}\)

Formalisierung des Problems

Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.

Level 1 – Daten

\(d_i: \big\{y_i, n_i \big\}\)

Level 2 – Beutelspezifische Verteilung

\(y_i ~ \big| ~ n_i \sim \text{Binom}(\theta_i)\)

Formalisierung des Problems

Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.

Level 1 – Daten

\(d_i: \big\{y_i, n_i \big\}\)

Level 2 – Beutelspezifische Verteilung

  • (\(\theta_i\)): Wahrscheinlichkeit, eine schwarze Murmel aus Beutel (i) zu ziehen
  • Verschiedene Beutel können unterschiedliche Wahrscheinlichkeiten (\(\theta_i\)) haben

\(y_i ~ \big| ~ n_i \sim \text{Binom}(\theta_i)\)


Formalisierung des Problems

Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.

Level 1 – Daten

\(d_i: \big\{y_i, n_i \big\}\)

Level 2 – Beutelspezifische Verteilung

\(y_i ~ \big| ~ n_i \sim \text{Binom}(\theta_i)\)

Level 3 – Allgemeines Wissen über Murmelbeutel

\(\theta_i \sim \text{Beta}(\alpha, \beta)\)

Formalisierung des Problems

Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.

Level 1 – Daten

\(d_i: \big\{y_i, n_i \big\}\)

Level 2 – Beutelspezifische Verteilung

\(y_i ~ \big| ~ n_i \sim \text{Binom}(\theta_i)\)

Level 3 – Allgemeines Wissen über Murmelbeutel

  • Erwartungswert (\(\frac{\alpha}{\alpha + \beta}\)) von (\(\theta_i\))
  • Precision-Paramter (\(\alpha + \beta\)), die die Konzentration der Wahrscheinlichkeitsmasse um den Mittelwert beschreibt (invers zur Varianz)

\(\theta_i \sim \text{Beta}(\alpha, \beta)\)

Formalisierung des Problems

Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.

Level 1 – Daten

\(d_i: \big\{y_i, n_i \big\}\)

Level 2 – Beutelspezifische Verteilung

\(y_i ~ \big| ~ n_i \sim \text{Binom}(\theta_i)\)

Level 3 – Allgemeines Wissen über Murmelbeutel

\(\theta_i \sim \text{Beta}(\alpha, \beta)\)

Level 4 – Hyperparameter

\(\frac{\alpha}{\alpha + \beta} \sim \text{Unif}(0, 1)\)

\(\alpha + \beta \sim \text{Exp}(1)\)

Formalisierung des Problems

Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.

Level 1 – Daten

\(d_i: \big\{y_i, n_i \big\}\)

Level 2 – Beutelspezifische Verteilung

\(y_i ~ \big| ~ n_i \sim \text{Binom}(\theta_i)\)

Level 3 – Allgemeines Wissen über Murmelbeutel

\(\theta_i \sim \text{Beta}(\alpha, \beta)\)

Level 4 – Hyperparameter

  • Prior der Beta-Verteilung
  • Uniformer Prior für (\(\frac{\alpha}{\alpha + \beta}\)) \(\rightarrow\) jede mittlere Wahrscheinlichkeit, eine schwarze Murmel zu ziehen, ist vor Daten gleich wahrscheinlich
  • Exponentielle Verteilung für (\(\alpha + \beta\)) \(\rightarrow\) kleinere Werte sind vor Beobachtung der Daten wahrscheinlicher

\(\frac{\alpha}{\alpha + \beta} \sim \text{Unif}(0, 1)\)

\(\alpha + \beta \sim \text{Exp}(1)\)

Formalisierung des Problems

Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.

Level 1 – Daten

\(d_i: \big\{y_i, n_i \big\}\)

Level 2 – Beutelspezifische Verteilung

\(y_i ~ \big| ~ n_i \sim \text{Binom}(\theta_i)\)

Level 3 – Allgemeines Wissen über Murmelbeutel

\(\theta_i \sim \text{Beta}(\alpha, \beta)\)

Level 4 – Hyperparameter

\(\frac{\alpha}{\alpha + \beta} \sim \text{Unif}(0, 1)\)

\(\alpha + \beta \sim \text{Exp}(1)\)

Posteriore Inferenz

Anwendung von Bayes-Formel bei hierarchischen Modellen

\[ \begin{gathered} \overbrace{P(\theta, \alpha, \beta ~ | ~ y)}^{\text{Posterior}} \propto \underbrace{P(\alpha, \beta)}_{\text{Hyperprior}} \overbrace{P(\theta ~ | ~ \alpha, \beta)}^{\text{Conditional Prior}} \underbrace{P(y ~ | ~ \theta, \alpha, \beta)}_{\text{Likelihood}} \end{gathered} \]

Posterior Inferenz bezüglich \(\theta_i\) durch Integration über \(\alpha\) und \(\beta\)

\[ \begin{align*} P(\theta_i ~ | ~ d_1, \dots, d_n) = \iint P(\theta_i ~ | ~ \alpha, \beta, d_i) P(\alpha, \beta ~ | ~ d_1, \dots, d_n) \,d\alpha \,d \beta \end{align*} \]

Anwendung des Modells auf das Murmelbeispiel

Zwischenfazit

Das Murmelbeispiel zeigt, dass HBMs gut mit unserer Intuition übereinstimmen, wie hierarchisch strukturierte Daten genutzt werden können, um Generalisierungen (overhypotheses) zu bilden.


Wieso ist das wichtig?

Diese Abstrakte Wissen ermöglicht schnelles Lernen aus nur wenigen Daten sowie One-Shot-Generalisierung.

Anwendung von HBMs to
Lernen von Kategorien

Einführendes Beispiel

Szenario: Eine Mutter zeigt auf einen unbekannten Gegenstand und sagt zu ihrem Kind, dass dies ein Stift sei.

Frage

Anhand welcher Merkmale verallgemeinern Kinder das Konzept „Stift“ und erkennen zukünftige Exemplare eines Stifts als solchen an?

  • Grundsätzlich könnte das Kind das Wort auf Objekte mit gleichem Material, gleicher Farbe, gleicher Textur oder einfach Objekten auf der Arbeitsplatte übertragen.
  • Empirisch neigen Kinder jedoch dazu, das neue Wort auf andere Objekte zu übertragen, die die gleiche Form haben.

Shape Bias

Die Erwartung, dass Mitglieder einer Kategorie tendenziell eine ähnliche Form haben.

Adapation des Hierarchischen Beta-Binomialen Modells

Overview of Changes
Murmel-Beispiel
Form-Beispiel
Hierarchisch Variable Beutel Objektkategorie
Daten Murmel Exemplare
Merkmale Farbe Form, Farbe, Textur, Größe, etc.
Merkmalswerte Binär Kategorisch
  • Level 1: Binäre Beobachtungen \(\rightarrow\) Kategoriale Beobachtungen

  • Level 2: Binomialverteilung \(\rightarrow\) Multinomialverteilung

  • Level 3: Beta-Prior \(\rightarrow\) Dirichlet-Prior

  • Level 4: Hyperprior wie zuvor

  • Kopie von Level 2–4 für jede Merkmalsdimension (Farbe, Form, Textur, Größe)

Model Adaption

  • Das Modell schließt, dass Kategorien in der Form konsistent sind (geringe Varianz), aber in der Farbe variabel (hohe Varianz)
  • Diese gelernte Struktur erzeugt eine starke Prior-Erwartung, dass jede neue Kategorie ebenfalls in der Form homogen ist
  • Modell schnelle Generalisierung neuer Labels basierend auf Formähnlichkeit und ignoriert effektiv Unterschiede in der Farbe \(\rightarrow\) Shape Bias

Anwendung auf die Nomen-Generalisisation

Table 1: Training Data
1
2
3
4
Kategorie 1 1 2 2 3 3 4 4
Form 1 1 2 2 3 3 4 4
Textur 1 2 3 4 5 6 7 8
Farbe 1 2 3 4 5 6 7 8
Größe 1 2 1 2 1 2 1 2
  • Zwei Exemplare pro Kategorie (Spalten)
  • Verschiedene Merkmalsdimensionen (Form, Textur, Farbe, Größe)
  • Paare von Objekten derselben Kategorie teilen die gleiche Form
Table 2: Testing Data
'Dax'
Objekt 1
Objekt 2
Objekt 3
Kategorie 5 ? ? ?
Form 5 5 6 6
Textur 9 10 9 10
Farbe 9 10 10 9
Größe 1 1 1 1

Nach dem Training stoßen Kinder (und das Modell) auf ein neues Objekt mit dem neuen Nomen „dax“.

Aufgabe: Welches der drei Kandidatenobjekte mit unbekannter Kategorie ist am wahrscheinlichsten ein dax?

Data based on Smith et al. (2002)

Results of Noun Generalization Task

  • 19 Monate alte Kinder, die das strukturierte Training erhielten, wählen das Objekt mit gleicher Form \(\rightarrow\) Shape Bias
  • Untrainierte 19 Monate alte Kinder wählen zufällig
  • HBM wist gleichen Präferenzmuster wie die trainierten Kinder auf

Zusammenfassung

Test

Literatur

Smith, L. B., Jones, S. S., Landau, B., Gershkoff-Stowe, L., & Samuelson, L. (2002). Object name learning provides on-the-job training for attention. Psychological Science, 13(1), 13–19. https://doi.org/10.1111/1467-9280.00403